빅데이터 시대, 올바른 인사이트를 위한 통계 101 X 데이터분석

Author

고경수

Published

September 14, 2023

1. 통계학이란?

1.1 데이터를 분석하다

  • 데이터 분석의 목적
  1. 데이터를 요약하는 것
  2. 대상을 설명하는 것
  3. 새로 얻을 데이터를 예측하는 것
  • 인과관계 : 2가지 중 하나(원인)을 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계. 인과관계를 알면 곧 원리(메커니즘)에 관한 지식을 얻는 것이기에 깊은 이해라고 할 수 있다.

  • 상관관계 : 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다. 한쪽을 ’변화시켰다’하더라도 다른 한쪽이 ’변한다’고 단정할 수 없다는 점에서 인과관계와 다르다. 원리에 관련된 몇 가지 가능성을 구별할 수 없으므로, 얕은 이해라 할 수 있다.

  • 선형관계에는 사람이 다루기 쉽고, 해석하기도 쉽다는 특징. 한편, 해석이 어려운 복잡한 관계를 추출하고 예측하는 기계학습이란 방법도 있다.(12장)

1.2 통계학의 역할

  • 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다.
  • 데이터 분석에서 통계학의 중요한 역할은, 퍼짐(산포, dispersion) 이 있는 데이터에 대해 설명이나 예측을 하는 것.
  • 통계학은 이러한 데이터 퍼짐을 ’불확실성’이라 평가하고, 통계학의 목적인 ’대상의 설명과 예측’을 수행
  • 통계학은 데이터 퍼짐이나 불확실성에 대처하는 방법을 제공. 그 근거가 되는 것이 데이터 퍼짐이나 불확실성을 확률로 나타내는 확률론이다.

1.3 통계학의 전체 모습

- 기술통계와 추론통계

  • 기술통계(descriptive statistics) : 수집한 데이터를 정리하고 요약하는 방법. 확보한 데이터에만 집중하면서, 데이터 자체의 성질을 이해하는 것을 목표로 한다는 점에 주의.

  • 추론통계(inferential statistics) : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법

- 통계적 추론과 가설검정

추론통계는 크게 2가지가 있다.

  1. 통계적 추론(statistical inference) : 데이터에서 가정한 확률 모형의 성질을 추정하는 방법. 예를 들어, 모서리가 닳아버린 주사위라면 각 눈이 나올 확률이 1/6이 아닐지도 모른다. 이럴 때 통계적 추론을 이용하여, 얻은 데이터로부터 각 눈이 어떤 확률로 나오는 주사위인가를 추정할 수 있다.

  2. 가설검정(statistical test) : 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법


2. 모집단과 표본

2.1 데이터 분석의 목적과 알고자 하는 대상

  1. 데이터 분석의 목적을 정하기.
  2. 알고자 하는 대상을 명확히 하기.

2.2 모집단

  • 모집단 : 알고자 하는 대상 전체

‘지금 알고자 하는 대상은 무엇인지’, ’무엇을 모집단으로 설정할 것인지’의 문제에는 항상 주의를 기울여야 한다.

  • 유한모집단
  • 무한모집단

2.3 모집단의 성질을 알다

  • 모집단은 데이터 분석에서 알고자 하는 대상 전체를 가리키기 때문에, 모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 된다.
  • 모집단의 성질이란, 다음과 같이 모집단에 포함된 요소를 특징 짓는 값이다.
  1. 한국인 남성의 평균 키는 172.5cm이다.
  2. 한국인 여성의 평균 키는 159.6cm이다.
  3. 신약을 복용한 사람의 최고 혈압 평균은 120mmHg이다.
  4. 이 주사위는 모든 눈이 균등하게 나온다.
  5. 이 주사위는 6의 눈이 1/4 확률로 나온다.
  • 그렇다면 이러한 모집단의 성질을 알기 위해서는 어떻게 해야 할까?

- 전수조사 : 모집단에 포함된 모든 요소를 조사

  • 모집단에 포함된 요소의 개수가 한정된, 유한모집단일 때 선택할 수 있는 조사 방법.

  • 전수조사의 경우 ‘분석할 데이터 = 모집단’. 그러므로 획득한 데이터의 특징을 파악하고 기술하기만 해도, 모집단의 성질을 설명하고 이해할 수 있다.

  • 전수조사의 어려움 : 비용이나 시간 면에서 부담이 막대하여 실현 불가능할 때가 대부분.

- 표본조사 : 모집단의 일부를 분석하여 모집단 전체의 성질을 추정하는 추론통계(inferentail statistics) 라는 분야가 있으며, 이것이야말로 통계학의 참모습이라 할 수 있다.

  • 표본(sample) : 추론통계에서 조사하는 모집단의 일부

  • 표본추출(sampling) : 모집단에서 표본을 뽑는 것

  • 표본조사 : 표본을 이용해 모집단의 성질을 조사하는 것

표본을 통해 모집단의 성질을 알 수 있는 잘 알려진 방법으로, 선거 출구조사를 들 수 있다. 일부의 표만으로도 당선확실 여부를 알 수 있다.

추론통계는 ’추론’이라는 말에서 알 수 있듯이 모집단의 성질을 100% 알아맞힐 수는 없으며, 어느 정도 불확실성을 염두에 두고 평가하게 된다.

  • 대상을 설명(이해)하고 예측하기 위해서는 모집단의 성질을 알아야 한다.

  • 일반적으로 모집단을 대상으로 한 전수조사는 어렵다.

  • 표본을 조사하면 모집단의 성질을 추정할 수 있다.

  • 표본크기 : 표본에 포함된 요소의 개수를 표본크기(sample size)라 부르며, 보통 알파벳 \(n\)으로 나타낸다. 예를 들어 표본으로 30개를 추출했다면, \(n\)=30이라 표기한다.

  • 통계학에서 샘플 수라고 하면 표본의 개수를 뜻한다. 예를 들어 20명으로 이루어진 표본A와 이와 별개로 30명으로 이루어진 표본B가 있는 경우, 표본은 A, B 2개이므로 샘플 수는 2가 된다. 이처럼 표본크기와 표본의 개수는 혼동하기 쉬우므로 주의.

  • 표본크기는 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 끼치기 때문에, 통계분석에 있어 중요한 요소 중 하나.


3. 통계분석의 기초